Sesión 11

Curso: R Aplicado a los Proyectos de Investigación


Percy Soto-Becerra, M.D., M.Sc(c)

InkaStats Data Science Solutions | Medical Branch

2022-10-26

  https://github.com/psotob91

Ajuste

Agenda

  1. Ajuste

  2. Inferencia causal y confusión

  3. Métodos de Control de Confusión

  4. Algunos problemas cuando se hacen inferencias causales

Motivación

En un estudio que evalúa la relación entre fumar (variable independiente) y el volumen expiratorio forzado (variable dependiente), se encuentran los siguientes resultados crudos (sin ajustar por otras variables) y ajustado por grupo etario:

El VEF medio en fumadores fue 0.71 L/s más que el VEF medio en no fumadores.

El VEF medio en fumadores fue 0.16 L/s menos que el VEF medio en no fumadores, manteniendo constante el grupo de edad.

  • En el análisis crudo, fumar se asocia con mejor función pulmonar en comparación con no fumar.

  • En el análisis ajustado, fumar se asocia con peor función pulmonar en comparación con no fumar.

\(\hat{\beta}_1\) crudo

  • Veamos el caso de una regresión lineal normal simple: \(\hat{\text{VEF}_i} = \hat{\beta_0} + \hat{\beta_1}\text{Fumar}_i\)

  • El coeficiente de regresión estimado \(\hat{\beta}_1\) (\(b_\text{fumar}\)) es una medida de la asociación cruda (univariada/bivariada) entre la variable explicativa fumar y la variable respuesta volumen expiratorio forzado en 1º minuto (VEF).

    • Especificamente, es una diferencia de medias de VEF entre fumadores y no fumadores en toda la muestra, sin tener en cuenta otras características.
  • En sentido descriptivo, esta asociación cruda puede ser útil para describir diferencias clínicas relevantes:

    • Describe diferencias observadas en el mundo real que observamos.

\(\hat{\beta}_1\) ajustado

  • Veamos el caso de una regresión lineal normal múltiple:

\[\hat{\text{VEF}}_i = \hat{\beta}_0 + \hat{\beta}_1\text{Fumar}_i + \hat{\beta}_kI(\text{Grupo etario} = k)\]

\(\hat{\beta}_1\) ajustado (cont.)

  • Cuando se analiza en cada grupo etario (“3-9 años”, “10-11 años”, “12-19 años”), la relación entre VEF y fumar se invierte en cada grupo.

  • La asociación entre VEF y Fumar se evalúa en cada estrato de la covariable.

    • Si asumimos que las tres medidas de asociación en realidad provienen de una única medida de asociación cuya realización varía por azar por variabilidad muestral, entonces, podemos resumir las 3 medidas en una sola usando un promedio ponderado de estas:

\[\hat{\beta}_{1\text{(ajustado)}} = b_{\text{fumar 3-9 años}}\frac{n_\text{fuma 3-9 años}}{n_\text{total}} + b_{\text{fumar 10-11 años}}\frac{n_\text{fuma 10-11 años}}{n_\text{total}} + b_{\text{fumar 12-19 años}}\frac{n_\text{fuma 12-19 años}}{n_\text{total}}\]

\[\hat{\beta}_{1\text{(ajustado)}} = (-0.08)(\frac{309}{654}) + (-0.26)(\frac{171}{654}) + (-0.18)(\frac{174}{654}) = -0.154\]

  • “Ajustar” en regresión significa obtener una medida de asociación condicionada en los valores de una o más covariables de ajuste.

    • Lo que estamos haciendo es evaluar la relación en grupos que son homogéneos en los valores de la covariable de estratificación: "(...) manteniendo constante (...)"

Simulación para entender ajuste - caso 1

Algunas cosas que hacer notar

  • A: X y Z no están relacionadas.

  • B: Z está relacionada a Y bivariadamente.

  • C: X está relacionada a Y bivariadamente.

  • D:

    • En cada estrato de Z, X está relacionada con Y, pero intercepto depende de Z.
    • La magnitud de la relación entre X e Y es la misma en cada estrato de Z.
    • La relación entre Z e Y es positiva y la misma, manteniendo constante X.

Simulación para entender ajuste - caso 2

Algunas cosas que hacer notar

  • A: X y Z altamente relacionados.

  • B: Z está relacionada a Y bivariadamente.

  • C: X está relacionada a Y bivariadamente.

  • D:

    • En cada estrato de Z, X está relacionada con Y, pero el intercepto NO depende de Z.
    • La magnitud de la relación entre X e Y es la misma en cada estrato de Z.
    • No hay relación entre Z e Y, manteniendo constante X.
    • No es posible obtener el efecto de Z en Y ajustado por X, debido a que no tengo datos para hacer la comparación.

Simulación para entender ajuste - caso 3

Algunas cosas que hacer notar

  • A: X y Z están relacionados positivametne.

  • B: Z tiene relación + con Y bivariadamente.

  • C: X tiene relación + con Y bivariadamente.

  • D:

    • En cada estrato de Z, X está relacionada con Y, pero intercepto depende de Z.
    • La magnitud de la relación entre X e Y es la misma en cada estrato de Z. Efecto ajustado es mayor que efecto no ajustado (pendiente más pronunciada).
    • La relación entre Z e Y es negativa y la misma, manteniendo constante X.

Simulación para entender ajuste - caso 4

Algunas cosas que hacer notar

  • A: X y Z NO están relacionados bivariadamente.

  • B: Z e Y NO están relacionados bivariadamente.

  • C: X tiene relación + con Y bivariadamente.

  • D:

    • En cada estrato de Z, X está relacionada con Y, pero intercepto depende de Z.
    • La magnitud de la relación entre X e Y es la misma en cada estrato de Z. Efecto ajustado es mayor que efecto no ajustado (pendiente más pronunciada).
    • La relación entre Z e Y es positiva y la misma, manteniendo constante X.

Simulación para entender ajuste - caso 5

Algunas cosas que hacer notar

  • A: X y Z NO están relacionados bivariadamente.

  • B: Z e Y NO están relacionados bivariadamente.

  • C: X no guardan relación lineal con Y bivariadamente.

  • D:

    • Intercepto y pendiente depende del grupo: El efecto ajustado de X en Y depende de Z.
    • El efecto ajustado de Z en Y depende de X.

Inferencia causal y confusión

Agenda

  1. Ajuste

  2. Inferencia causal y confusión

  3. Métodos de Control de Confusión

  4. Algunos problemas cuando se hacen inferencias causales

¿Qué busca la inferencia causal?

Disciplina interdisciplinaria que estudia los métodos que permiten estimar el efecto causal de una intervención o exposición sobre uno o más desenlaces a partir de datos experimentales u observacionales.

  • La meta no es cualquier ‘efecto’ (o ‘asociación’).

  • No busca solo determinar la existencia de un efecto causal, también se busca estimar su magnitud.

Teoría contrafactual y de resultados potenciales

Contrafactual

“(…)todo acontecimiento o toda situación que no ha sucedido en el universo actualemnte observable por la investigación humana pero que podría haber ocurrido en otros universos posibles” Fuente Wikipedia

  • Universo real o factual versus universos posibles o contrafactuales

Resultado potencial

  • Resultado futuro posible

Contrafactual en una nuez…

https://youtu.be/n6MNciSb85E

Marco de teoria contrafactual y de resultados potenciales (1/2)

Marco de teoria contrafactual y de resultados potenciales (2/2)

Contrafactuales y resultados potenciales en palabras sencillas…

  • ¿Hay una forma de probar irrefutablemente el efecto causal de una intervención en un individuo?

    • No en nuestra realidad, pero sí podemos imaginar el experimento (mental) que compare resultados potenciales de mundos contrafactuales.
  • Existen dos multiversos exactamente iguales, salvo por una sola cosa:

    • El tratamiento recibido.

Contrafactuales y resultados potenciales en palabras sencillas… (cont.)

  • Intervención (o exposición):

    • Ivermectina (IVM) + Cuidado Estándar (CE) vs.
    • Solo Cuidado Estándar
  • Resultados Potenciales (Outcome o desenlace)

    • Muerte por COVID-19, o
    • No Muerte por COVID-19

Contrafactuales y resultados potenciales en palabras sencillas… (cont.)

Contrafactuales y resultados potenciales en palabras sencillas… (cont.)

Contrafactuales y resultados potenciales en palabras sencillas… (cont.)

Contrafactuales y resultados potenciales en palabras sencillas… (cont.)

Contrafactuales y resultados potenciales en palabras sencillas… (cont.)

Resultados Potenciales: Efectos individuales

  • Un tratamiento \(x = 1\) causa un efecto causal en comparación con un tratamiento \(x = 0\) si los resultados potenciales son diferentes en el individuo.

\[Tratamiento ~ X = x ~ causa ~ Y \text{en individuo } i\]

\[\leftrightarrow Y_i^{x = 1} \neq Y_i^{x = 0}\]

  • Por lo tanto, la magnitud del efecto causal individual es:

\[\text{Efecto Causal de }X \text{ (1 vs 0) en individuo }i = \] \[ = Y_i^{x = 1} - Y_i^{x = 0}\]

Resultados Potenciales: Efectos individuales

Problema Fundamental de la Inferencia Causal

  • En la realidad, solo podemos observar un resultado potencial.

  • Por lo tanto, es imposible identificar los efectos causales individuales.

Problema Fundamental de la Inferencia Causal (cont.)

  • Si no podemos estimar estimar efectos individuales, ¿qué podemos hacer?

    • Podemos conformarnos con efectos promedio en poblacionales.
  • ¡Tampoco tenemos el contrafactual promedio poblacional!

    • Sin embargo, podemos ¡emularlo! bajo ciertas condiciones razonables.

Meta factible de la inferencia causal

  • Estimar efectos causales promedio en poblaciones.

    • Crear un contrafactual sintético que, en promedio, sea equivalente al contrafactual de la población intervenida.
  • No queremos simplemente comprar grupos, queremos hacer algo más radical:

    • Comparar a la población consigio misma en un mundo alternativo donde recibió un tratamiento diferente.

    • Queremos saber: “¿Qué hubiera pasado si…? (What if…?)

Emulación de contrafactual poblacional

Emulación de contrafactual pob. (cont.)

¿Cómo emulamos contrafactuales poblacionales?

[1] "img/emular-contrafactual.png"

Insumos para estimar efectos causales promedio

  1. Desenlace de interés

    • Resultados potenciales
  2. Intervenciones bien definidas

    • Deben ser manipulables.
  3. Población bien definida cuyos resultados potenciales serán comparados.

  4. Suposiciones razonables para realizar inferencia causal.

  5. Modelo estadístico bien puesto y estimador computable.

Tipos de efectos causales promedio

  • Efecto Promedio del Tratamiento en Toda la Población

    • Average Treatment Effect (ATE)

    • \(ATE = \frac{1}{N} \sum_{i=1}^N (Y_i^1 - Y_i^0)\)

  • Efecto Promedio del Tratamiento en los Tratados

    • Average Treatment Effect (ATE)

    • \(ATT = \frac{1}{N_t} \sum_{i=1}^N (Y_i^1 - Y_i^0 | T_i = 1)\)

Tipos de efectos causales promedio (cont.)

  • Efecto Promedio del Tratamiento en los Controles

    • Average treatment effect on control (ATC)
  • Efecto Promedio Local del Tratamiento

    • Local average treatment effect (LATE)

    • También conocido como Efecto causal promedio en adherentes o cumplidores.

  • Otros: CATE, CATC, etc.

Inferencia causal es sobre resultados potenciales

  • Nótese que aunque tengamos un censo (toda la población de interés evaluada), siempre tendremos una muestra de los resultados potenciales:

    • ¡Siempre tendremos incertidumbre en la estimación del efecto causal!

    • Debemos estimar el “grado de incertidumbre” para el estimado puntual de efecto causal: valor p e intervalos de confianza válidos son necesarios.

Supuestos (no verificables) para identificar efecto causales en inferencia causal

  • Consistencia

    • Requiere “Stable Unit Treatment Value Assumption (SUTVA)”

    • No interferencia entre unidades + Una sola versión de la intervención (intervención bien definida)

  • Ignorabilidad

    • También llamada intercambiabilidad (excheangbility)

    • No confusión residual

  • Positividad

    • Todos los individuos deben tener una probabilidad > 0 de recibir los tratamientos en comparación.

Métodos de Control de Confusión

Agenda

  1. Ajuste

  2. Inferencia causal y confusión

  3. Métodos de Control de Confusión

  4. Algunos problemas cuando se hacen inferencias causales

¿Controlar o no controlar? He ahí el dilema

  • Cuando el sesgo de confusión es una amenaza, podemos optar por dos medidas:

    • Opción 1: No controlar confusión

      • En cambio usar un diseño que asuma una “asignación aleatoria natural”.

      • El efecto estimado en realidad es “local”, no es “global”.

      • Enfoque preferido por economistas.

      • En Farmacoepidemiología y en análisis por protocolo de ensayos clínicos se usa para lidiar con el problema de no adherentes o no cumplidores del tratamiento.

    • Opción 2: Controlar directamente la confusión.

      • Este es el enfoque preferido en investigación clínica.

Opción 1: No controlar la confusión

  • Enfoque de variable instrumental.

  • Solo se puede hacer cuando es razonable suponer que se cuenta con un instrumento bueno.

Opción 2 Control de confusión en el diseño

  • Estándar de oro:

    • Asignación aleatoria física (Ej. experimento controlado aleatorizado)
  • En el diseño:

    • Asignación aleatoria física.

    • Restricción.

    • Pareamiento (matching) en el diseño.

Opción 2 Control de confusión en el análisis

  • En el análisis:

    • Regresión de deselaces.

    • Puntajes de propensión: Matching, Ponderación, Otros.

    • Ponderación por inverso de probabilidad de selección.

    • Modelos estructurales marginales.

    • Estandarización.

    • Fórmula G paramétrica, etc.

Métodos de control de confusión en análisis

  • Diversos métodos tienen diferentes supuestos.

    • Esto ocasiona que los resultados puedan diferir entre enfoques de análisis.

    • Algunos métodos tienen ventajas respecto a otros.

Métodos de control de confusión en análisis (cont.)

  • En general, todos comparten la necesidad de controlar por confusión:

    • Idealmente: Ignorabilidad

      • No debe haber confusión residual.

      • No debe haber sesgo de selección (p.ej., estratificación por colisionador o ajuste en mediador)

    • En la práctica: La confusión residual debe ser despreciable.

      • No cambiar conclusiones, aunque estimados varíen “un poco”.

DAG causal

Herramienta matemática que permite describir las relaciones causa-efecto, evaluar sus condiciones de identificabilidad y orientar la obtención de estimados causales.

DAG ayudan a identificar cómo emular asignación aleatoria

  • DAG (grafos acíclicos dirigidos) ayudan a identificar confusores y evitar colisionadores.

Control por confusores emula asignación aleatoria

  • Controlar la confusión, si ciertos supuestos se cumplen, permite emular la asignación aleatoria.

Condicionamiento por regresión

  • Se usa una ecuación lineal para relacionar el desenlace \(y_i\) con la variable de intervención, condicionado por las otras variables.

En resumen

Algunos problemas cuando se hacen inferencias causales

Agenda

  1. Ajuste

  2. Inferencia causal y confusión

  3. Métodos de Control de Confusión

  4. Algunos problemas cuando se hacen inferencias causales

Falacia de la tabla 2

Falacia que ocurre de interpretar los coeficientes de regresión de las variables confusoras.

  • El modelo de regresión está diseñado para estimar efectos causales de una variable de exposición de interés.

  • El efecto causal de un confusor sobre el desenlace debe tener su propio conjunto de confusores.

Otro ejemplo interesante de falacia de tabla 2

Consenso sobre falacia de tabla 2

¡Gracias!
¿Preguntas?




https://github.com/psotob91

percys1991@gmail.com